查看原文
其他

最小二乘法:背后的假设和原理(前篇)

2017-11-10 alg-flody 算法channel

戳上面的蓝字关注我们!


作者:alg-flody

编辑:Emily


今日话题
总结了一些最基本的机器学习概念,比如特征,训练集,维数,假设空间,通过一个例子说明什么是机器学习的泛化能力,再阐述了什么是归纳偏好。是时候开始进一步体会机器学习算法了,我们先从最基本但很典型的线性回归算法之OLS说起吧,它背后的假设和原理您了解吗?本系列带来细细体会OLS这个算法涉及的相关理论和算法。

1 线性回归的例子


我们接下来要预测房屋的价值,其中考虑的特征包括房屋的面积,和房屋的已使用年限。如下图所示的4条样本:

房屋面积使用年限房屋价值
85.17568
12012130
1026104
59349


现在,一个房屋面积为78,使用年限为4年的房屋,根据上表提示的数据预测下这个房屋的价值,这是我们的目标。


考虑:房屋面积和使用年限都会影响房屋的价值,不过我们现在还不知道它们各自对价值有多大的影响?


此时我们预测的房屋价值是一个连续值,因此回归得到的是一个值,这是一个典型的二元回归问题,如果要从线性回归入手,就是二元线性回归。通俗点说就是找到一个面(x1, x2)能很好的拟合(y房屋价值)以上4个样本。


2 建立模型


先从最简单的线性回归思路出发,这也是机器学习的基本思路,从最简单的模型入手。


假设1 是房屋面积的权重参数,2 是使用年限的权重参数,那么拟合的平面便可以表示为:

要习惯用矩阵的表达,上面这个求和公式用矩阵表达为:

其中 ,

表示为    

表示为

3 完整求解思路


3.1 求解误差

在假设了以上的模型后,接下来最重要的是求解方程中的3个参数,其中第一个参数为偏置项。


我们知道预测值和真实值之间一般是存在误差的,误差值用表示,公式如下所示:


其中,

是第 i 个样本的真实值,注意这种标记方法,这是很重要的。


问题来了,误差的分布情况可以是任意的吗,还是需要满足某种分布规律才行?


3.2 误差分布假定


以上这个问题是非常重要的,如果误差分布没有满足某个规律,这个就很难做出预测了,因为它没有规律啊!


所以我们假设任何一个样本的误差项满足独立同分布,并且服从均值为0方差为一定值的高斯分布


至于什么是独立,什么是高斯分布,大家可以参考本公众号推送的知识储备系列,公式如下:



在做出这个假定,分布服从高斯分布后,我们就可以将误差项直接带入一维高斯分布的公式中。



然后将 误差项: 带入上式,可得:



上式中的 x 和 y,方差都是已知量,f为概率的取值,那么,由这个公式该如何求解参数呢?


3.3 似然函数求参数

是的,似然函数的确是求解类似问题的常用解决方法,包括以后的解决其他模型的参数,也有可能用到似然函数。


如果对似然函数无感觉,那么也请看一下明天推送的知识储备系列文章,一看您就明白了。


预知借助似然函数的相关理论求解权重参数,请看明天的推送,谢谢您的阅读。




主要推送关于算法的分析过程及应用的消息。培养思维能力,注重过程,挖掘背后的原理,刨根问底。本着严谨和准确的态度,目标是撰写实用和启发性的文章,欢迎您的关注。



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存